LLM の KV cache
query$ Q今生成しようとしてゐる token
これまでに現れた全 token
key 行列$ K自分はどんな情報を持ってゐるか
value 行列$ V具體的な中身
$ {\rm Attention}(Q,K,V)={\rm softmax}\left(\frac{QK^\top}{\sqrt d}\right)V
LLM の KV cacheが無いと、token を生成する度に$ K,Vを再計算する$ O(L^2)
LLM の KV cacheを使ふと、$ O(L)
prefill
user の入力 prompt から$ K_0,V_0vector を計算する
各層每に memory に cache する
decoding
新しい token$ x_tから$ K_t,V_tvector のみを計算し、既存の cache に追加する
LLM テクニックの習得: 推論の最適化 - NVIDIA 技術ブログ#アテンション_メカニズムの最適化
KVキャッシュを完全に理解する
memory 節約手法
Haoyang Li, et al. "A Survey on Large Language Model Acceleration based on KV Cache Management" 2025/7/30